汉字信息工程gram 语言模型的压缩gram 语言模型的压缩考虑一个语言 LLL 包含 nnn 个词,L={w1,⋯ ,wn}L=\{w_1,\cdots,w_n\}L={w1,⋯,wn}。一个 2-gram 语言模型可以看成是以词为下标的矩阵,每个元素 PijP_{ij}Pij 表示在语言中连续出现 wiw_iwi 和 wjw_jwj 的概率: Pij=P(wi→wj)P_{ij}=\mathbb P(w_i\to w_j)Pij=P(wi→wj) 注意,这是一个概率矩阵而不是转移矩阵,满足 ∑ijPij=1\sum_{ij}P_{ij}=1∑ijPij